智能论文笔记

IV-GNN : Interval Valued Data Handling Using Graph Neural Network

Sucheta Dawn , Sanghamitra Bandyopadhyay

分类：机器学习 | 人工智能

2021-11-17

图形神经网络（GNN）是一个强大的工具，可以在图形上执行标准机器学习。为了在非欧几里德图形数据中的每个节点的欧几里德表示，GNN沿着图形的边缘递归地遵循邻域聚合和信息的组合。尽管文献中具有许多GNN变体，但没有模型可以处理具有间隔值的节点的图形。本文提出了一个间隔valuedPraph神经网络，这是一个新的GNN模型，在其中，首次放松了特征空间的限制。由于任何可数集始终是通用集合$ r ^ {n} $的子集，我们的模型比现有模型更为一般。这里，为了处理间隔值的特征向量，我们提出了一种新的间隔聚合方案，并表现出其捕捉不同间隔结构的表现力。我们通过将其性能与在多个基准网络和合成数据集上的最先进模型的性能进行比较，验证了我们对图形分类任务的模型的理论调查结果。

translated by 谷歌翻译

Targets in Reinforcement Learning to solve Stackelberg Security Games

Saptarashmi Bandyopadhyay , Chenqi Zhu , Philip Daniel , Joshua Morrison , Ethan Shay , John Dickerson

分类：机器学习 | 人工智能 | (统计)机器学习

2022-11-30

Reinforcement Learning (RL) algorithms have been successfully applied to real world situations like illegal smuggling, poaching, deforestation, climate change, airport security, etc. These scenarios can be framed as Stackelberg security games (SSGs) where defenders and attackers compete to control target resources. The algorithm's competency is assessed by which agent is controlling the targets. This review investigates modeling of SSGs in RL with a focus on possible improvements of target representations in RL algorithms.

translated by 谷歌翻译

Can Querying for Bias Leak Protected Attributes? Achieving Privacy With Smooth Sensitivity

Faisal Hamman , Jiahao Chen , Sanghamitra Dutta

分类：人工智能 | 机器学习

2022-11-03

Existing regulations prohibit model developers from accessing protected attributes (gender, race, etc.), often resulting in fairness assessments on populations without knowing their protected groups. In such scenarios, institutions often adopt a separation between the model developers (who train models with no access to the protected attributes) and a compliance team (who may have access to the entire dataset for auditing purpose). However, the model developers might be allowed to test their models for bias by querying the compliance team for group fairness metrics. In this paper, we first demonstrate that simply querying for fairness metrics, such as statistical parity and equalized odds can leak the protected attributes of individuals to the model developers. We demonstrate that there always exist strategies by which the model developers can identify the protected attribute of a targeted individual in the test dataset from just a single query. In particular, we show that one can reconstruct the protected attributes of all the individuals from O(Nk log n/Nk) queries when Nk<<n using techniques from compressed sensing (n: size of the test dataset, Nk: size of smallest group). Our results pose an interesting debate in algorithmic fairness: should querying for fairness metrics be viewed as a neutral-valued solution to ensure compliance with regulations? Or, does it constitute a violation of regulations and privacy if the number of queries answered is enough for the model developers to identify the protected attributes of specific individuals? To address this supposed violation, we also propose Attribute-Conceal, a novel technique that achieves differential privacy by calibrating noise to the smooth sensitivity of our bias query, outperforming naive techniques such as Laplace mechanism. We also include experimental results on the Adult dataset and synthetic data (broad range of parameters).

translated by 谷歌翻译

Atrial Fibrillation Recurrence Risk Prediction from 12-lead ECG Recorded Pre- and Post-Ablation Procedure

Eran Zvuloni , Sheina Gendelman , Sanghamitra Mohanty , Jason Lewen , Andrea Natale , Joachim A. Behar

分类：机器学习

2022-08-22

简介：在房颤（AF）导管消融过程（CAP）期间记录了12条铅心电图（ECG）。如果没有长时间的随访评估AF复发（AFR），确定CAP是否成功并不容易。因此，AFR风险预测算法可以使CAP患者更好地管理。在这项研究中，我们从CAP前后记录的12铅ECG中提取功能，并训练AFR风险预测机学习模型。方法：从112例患者中提取前和后段段。该分析包括信号质量标准，心率变异性和由12铅ECG设计的形态生物标志物（总体804个功能）。在112名患者中，有43例AFR临床终点可用。这些用于使用前或后CAP特征来评估AFR风险预测的可行性。在嵌套的交叉验证框架内训练了一个随机的森林分类器。结果：发现36个特征在区分手术前和手术后具有统计学意义（n = 112）。对于分类，报告了接收器操作特性（AUROC）曲线下的区域，AUROC_PRE = 0.64，AUROC_POST = 0.74（n = 43）。讨论和结论：此初步分析表明AFR风险预测的可行性。这样的模型可用于改善盖帽管理。

translated by 谷歌翻译

Tree species classification from hyperspectral data using graph-regularized neural networks

Debmita Bandyopadhyay , Subhadip Mukherjee

分类：计算机视觉 | 机器学习

2022-08-18

树种的手动标记仍然是一项具有挑战性的任务，尤其是在热带地区，由于无法获得和劳动密集型地面调查。高光谱图像（HSIS）通过其狭窄且连续的带，可以根据其光谱特性来区分树种。因此，HSI图像上的自动分类算法可以帮助增强有限的标记信息，并为各种树种生成实时分类图。通过图像中有限的标记信息，实现高分类精度是研究人员近年来开始应对的关键挑战之一。我们提出了一种新型的图形调节神经网络（GRNN）算法，该算法涵盖了基于超像素的分割用于图形结构，像素神经网络分类器和标签传播技术，以生成准确的分类图。 Grnn的表现不仅胜过标准的印度松树HSI的几种最先进技术，而且在法国圭亚那（FG）的森林中收集的新的HSI数据集上也达到了高分类的准确性（约92％）少于1％的像素被标记。我们表明，GRNN不仅与最先进的半监督方法具有竞争力，而且还表现出不同数量的训练样本的准确性差异和对标记像素进行培训的不同独立随机采样的差异。

translated by 谷歌翻译

Robust Counterfactual Explanations for Tree-Based Ensembles

Sanghamitra Dutta , Jason Long , Saumitra Mishra , Cecilia Tilli , Daniele Magazzeni

分类：机器学习 | 人工智能

2022-07-06

反事实解释为从机器学习模型中获得预期结果的方法提供了信息。但是，这种解释对基础模型的某些现实世界变化（例如，重新训练模型，更改的超参数等）并不强大，质疑其在多种应用程序中的可靠性，例如信用贷款。在这项工作中，我们提出了一种新颖的策略 - 我们称之为Robx，以生成基于树的合奏，例如XGBoost的强大反事实。基于树的合奏在强大的反事实生成中提出了其他挑战，例如，它们具有非平滑和非差异的目标函数，并且在非常相似的数据上，它们可以在RETOR下的参数空间中进行很多更改。我们首先引入了一种新颖的指标（我们称之为反事实稳定性），该指标试图量化反事实的鲁棒性将是为了模拟重新训练下的变化，并具有理想的理论属性。我们提出的策略ROBX使用任何反事实生成方法（基本方法），并通过使用我们的度量反事实稳定性迭代地完善基本方法生成的反事实来搜索强大的反事实。我们将ROBX的性能与基于基准数据集的流行反事实生成方法（对于基于树的合奏）进行了比较。结果表明，我们的策略会产生反事实，这些反事实是强大的（实际模型更改后的有效性近100％），并且在现有最新方法上也是现实的（就局部异常因素而言）。

translated by 谷歌翻译

Fairness via In-Processing in the Over-parameterized Regime: A Cautionary Tale

Akshaj Kumar Veldanda , Ivan Brugere , Jiahao Chen , Sanghamitra Dutta , Alan Mishler , Siddharth Garg

分类：机器学习

2022-06-29

DNN的成功是由过度参数化网络概括的违反直觉能力驱动的，即使它们完全适合培训数据。实际上，测试误差通常会随着过度参数化的增加而继续减少，称为双重下降。这使从业者可以实例化大型模型，而不必担心过度合适。但是，尽管有好处，但先前的工作表明，过度参数会加剧偏见对少数族裔亚组。已经提出了几种公平约束的DNN培训方法来解决这一问题。在这里，我们对Mindiff进行了严格的研究，这是Tensorflow负责AI工具包中实施的公平约束培训程序，旨在实现机会平等。我们表明，尽管Mindiff改善了参数化不足的模型的公平性，但在过度参数化的制度中可能是无效的。这是因为一个具有零训练损失的过度合适模型在培训数据上是微不足道的，造成了“公平幻想”，因此可以关闭Mindiff的优化（这将适用于任何基于差异的措施，这些措施关心错误或准确性。它不适用于人口统计）。在指定的公平限制内，与参数过度的同行相比，参数化的Mindiff模型甚至可能具有较低的错误（尽管基线过度参数化模型的错误较低）。我们进一步表明，Mindiff优化对在参数不足的制度中的批处理大小非常敏感。因此，使用Mindiff的公平模型培训需要耗时的超参数搜索。最后，我们建议使用先前提出的正则化技术，即。 L2，与Mindiff结合使用的早期停止和洪水训练公平的参数化模型。

translated by 谷歌翻译

Functional Optimization Reinforcement Learning for Real-Time Bidding

Yining Lu , Changjie Lu , Naina Bandyopadhyay , Manoj Kumar , Gaurav Gupta

分类：人工智能 | 机器学习

2022-06-25

实时竞标是编程广告的新范式。广告商希望做出使用\ textbf {需求端平台}来提高其广告活动的性能的聪明选择。现有的方法正在努力为由于随机招标行为而为优化提供令人满意的解决方案。在本文中，我们提出了具有功能优化的RTB的多代理增强学习体系结构。我们设计了四个代理商竞标环境：基于三个Lagrange-Multiplier的功能优化代理和一个基线代理（没有功能优化的任何属性）首先，已将许多属性分配给每个代理，包括偏见或无偏的胜利概率，Lagrange乘数，然后单击单击 - 通过率。为了评估拟议的RTB策略的性能，我们证明了十个顺序模拟拍卖活动的结果。结果表明，具有功能性动作和奖励的代理商分别具有偏见和公正的获胜信息，具有最重要的平均获胜率和赢得盈余。实验评估表明，我们的方法显着提高了运动的功效和盈利能力。

translated by 谷歌翻译

Quantifying Feature Contributions to Overall Disparity Using Information Theory

Sanghamitra Dutta , Praveen Venkatesh , Pulkit Grover

分类：机器学习 | 人工智能 | (统计)机器学习

2022-06-16

当机器学习算法做出有偏见的决定时，了解差异来源以解释为什么存在偏见会很有帮助。在此方面，我们研究了量化每个单独特征对观察到的差异的贡献的问题。如果我们可以访问决策模型，则一种潜在的方法（从解释性文献中的基于干预的方法启发）是改变每个单独的功能（同时保持其他功能），并使用结果变化的差异来量化其贡献。但是，我们可能无法访问该模型，也无法测试/审核其输出以单独变化的功能。此外，该决定可能并不总是是输入特征（例如，在循环中）的确定性函数。对于这些情况，我们可能需要使用纯粹的分布（即观察性）技术来解释贡献，而不是介入。我们提出一个问题：当确切的决策机制无法访问时，每个单独特征对在决策中观察到的差异的“潜在”贡献是什么？我们首先提供规范的示例（思想实验），以说明解释贡献的分布和介入方法之间的差异，以及何时更适合。当无法干预输入时，我们通过利用一种称为部分信息分解的信息理论中的作品来量化有关最终决策和单个特征中存在的受保护属性的“冗余”统计依赖性。我们还进行了一个简单的案例研究，以显示如何应用该技术来量化贡献。

translated by 谷歌翻译

Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving Product Search

Chandan K. Reddy , Lluís Màrquez , Fran Valero , Nikhil Rao , Hugo Zaragoza , Sambaran Bandyopadhyay , Arnab Biswas , Anlu Xing , Karthik Subbian

分类：机器学习

2022-06-14

提高搜索结果的质量可以显着增强用户的体验和与搜索引擎的交战。尽管机器学习和数据挖掘领域的最新进展，但正确对特定用户搜索查询的项目进行了分类一直是一个长期的挑战，这仍然有很大的改进空间。本文介绍了“购物查询数据集”，这是一个很大的亚马逊搜索查询和结果的大型数据集，以促进研究以提高搜索结果的质量，以促进研究。该数据集包含大约1.3万个独特的查询和260万手动标记（查询，产品）相关性判断。该数据集具有多语言，其中包括英语，日语和西班牙语的查询。购物查询数据集用于KDDCUP'22挑战之一。在本文中，我们描述了数据集并介绍了三个评估任务以及基线结果：（i）对结果列表进行排名，（ii）将产品结果分类为相关性类别，以及（iii）确定给定查询的替代产品。我们预计这些数据将成为产品搜索主题的未来研究的黄金标准。

translated by 谷歌翻译